Neural machine translation (NMT) has become the de-facto standard in real-world machine translation applications. However, NMT models can unpredictably produce severely pathological translations, known as hallucinations, that seriously undermine user trust. It becomes thus crucial to implement effective preventive strategies to guarantee their proper functioning. In this paper, we address the problem of hallucination detection in NMT by following a simple intuition: as hallucinations are detached from the source content, they exhibit encoder-decoder attention patterns that are statistically different from those of good quality translations. We frame this problem with an optimal transport formulation and propose a fully unsupervised, plug-in detector that can be used with any attention-based NMT model. Experimental results show that our detector not only outperforms all previous model-based detectors, but is also competitive with detectors that employ large models trained on millions of samples.
translated by 谷歌翻译
As more and more conversational and translation systems are deployed in production, it is essential to implement and to develop effective control mechanisms guaranteeing their proper functioning and security. An essential component to ensure safe system behavior is out-of-distribution (OOD) detection, which aims at detecting whether an input sample is statistically far from the training distribution. Although OOD detection is a widely covered topic in classification tasks, it has received much less attention in text generation. This paper addresses the problem of OOD detection for machine translation and dialog generation from an operational perspective. Our contributions include: (i) RAINPROOF a Relative informAItioN Projection ODD detection framework; and (ii) a more operational evaluation setting for OOD detection. Surprisingly, we find that OOD detection is not necessarily aligned with task-specific measures. The OOD detector may filter out samples that are well processed by the model and keep samples that are not, leading to weaker performance. Our results show that RAINPROOF breaks this curse and achieve good results in OOD detection while increasing performance.
translated by 谷歌翻译
能够替换人类判断的自动评估指标对于允许快速开发新方法至关重要。因此,许多研究工作集中在制定此类指标上。在这项工作中,我们退后一步,通过比较现有的自动指标和人类指标的身体来分析最近的进度。由于指标是根据它们的排名系统的方式使用的,因此我们比较系统排名空间中的指标。我们广泛的统计分析揭示了令人惊讶的发现:自动指标 - 新老 - 与彼此相比,比人类更相似。自动指标不是互补的,等级系统也类似。令人惊讶的是,人类指标彼此相互预测要比所有用于预测人类指标的自动指标的组合要好得多。令人惊讶的是,人类指标通常被设计为独立,以捕获质量的不同方面,例如内容保真度或可读性。我们对这些发现和建议进行讨论,以在评估领域的未来工作。
translated by 谷歌翻译
在过去的几年中,对抗性示例的检测一直是一个热门话题,因为它对于在关键应用程序中安全部署机器学习算法的重要性。但是,通常通过假设一个隐式已知的攻击策略来验证检测方法,这不一定要考虑现实生活中的威胁。确实,这可能导致对检测器性能的过度评估,并可能在竞争检测方案之间的比较中引起一些偏见。我们提出了一个新型的多武器框架,称为Mead,用于根据几种攻击策略来评估探测器,以克服这一限制。其中,我们利用三个新目标来产生攻击。所提出的性能指标基于最坏的情况:仅当正确识别所有不同攻击时,检测才成功。从经验上讲,我们展示了方法的有效性。此外,最先进的探测器获得的表现不佳,为一项新的令人兴奋的研究开放。
translated by 谷歌翻译
我们解决了几个射击开放式识别(FSOSR)问题,即在我们只有很少的标签样本的一组类中分类的实例,同时检测不属于任何已知类别的实例。偏离现有文献,我们专注于开发模型不足的推理方法,这些方法可以插入任何现有模型,无论其架构或培训程序如何。通过评估嵌入的各种模型的质量,我们量化了模型 - 敏捷FSOSR的内在难度。此外,公平的经验评估表明,在FSOSR的电感环境中,KNN检测器和原型分类器的天真组合在专业或复杂方法之前。这些观察结果促使我们诉诸于转导,这是对标准的几次学习问题的流行而实用的放松。我们介绍了一个开放的设置转导信息最大化方法OSTIM,该方法幻觉了异常原型,同时最大程度地提高了提取的特征和作业之间的相互信息。通过跨越5个数据集的广泛实验,我们表明OSTIM在检测开放式实例的同时,在与最强的托管方法竞争时,在检测开放式实例时都超过了电感和现有的转导方法。我们进一步表明,OSTIM的模型不可知论使其能够成功利用最新体系结构和培训策略的强大表现能力而没有任何超参数修改,这是一个有希望的信号,即将来临的建筑进步将继续积极影响Ostim的表现。
translated by 谷歌翻译
共同信息(MI)已被广泛用作训练神经网络的损失正规化程序。当学习高维数据的分解或压缩表示时,这特别有效。但是,差异熵(DE)是信息的另一种基本衡量标准,在神经网络培训中尚未发现广泛使用。尽管DE提供了比MI的可能更广泛的应用程序,但现成的DE估计器要么是非可区分的,在计算上是棘手的,要么无法适应基础分布的变化。这些缺点使它们无法在神经网络培训中用作正规化器。为了解决DE先前提出的估计器中的缺点,我们在这里介绍了刀具,这是一个完全参数化的,基于DE的基于核的估计器。我们方法的灵活性还使我们能够为条件(离散变量或连续变量)以及MI构建基于刀的估计器。我们从经验上验证了高维合成数据的方法,并进一步应用它来指导神经网络的现实任务培训。我们对各种任务的实验,包括视觉域的适应性,文本公平分类和文本微调,证明了基于刀的估计的有效性。代码可以在https://github.com/g-pichler/knife上找到。
translated by 谷歌翻译
用于分类任务的机器学习算法的最终性能通常根据基于测试数据集的经验误差概率(或准确性)来衡量。然而,这些算法通过基于训练集的典型不同 - 更方便的损耗功能而优化了这些算法。对于分类任务,这种损失函数通常是负值损耗,导致众所周知的交叉熵风险,这通常比误差概率更好地表现出(从数值角度)。关于泛化误差的常规研究通常不会考虑训练和测试阶段的损失之间的潜在不匹配。在这项工作中,考虑到基于精度度量和负对数损耗的训练,基于概括的Pock-Wise Pac方法的分析。我们标记此分析Pacman。建立所提到的不匹配可以写成似然比,浓度不平等可以用于根据一些有意义的信息理论量的一些点智选一的界限提供一些关于泛化问题的见解。还提供了对所得界限的分析和与文献中的可用结果进行比较。
translated by 谷歌翻译
通过人类注释评估自然语言生成系统的质量非常昂贵。此外,人类注释运动是耗时的,包括不可重复使用的人工劳动力。在实践中,研究人员依赖于自动指标作为质量的代理。在过去的十年中,已经介绍了许多基于字符串的度量(例如,BLEU)。但是,这种指标通常依赖于完全匹配,因此,不强大地处理同义词。在本文中,我们介绍了InfolmM一系列未经培训的指标,可以被视为基于字符串的度量标准,该度量可以通过预先接受培训的屏蔽语言模型来解决上述漏洞。这家指标族也利用信息措施,允许改编Infolmm对各种评估标准。使用直接评估,我们展示Infolmm在概要和Data2Text生成的许多配置中实现了统计上显着的改进和超过10美元的相关点。
translated by 谷歌翻译
关于机器学习(ML)公平性的主要担忧是,为了实现它,人们可能必须缩短一些准确性。克服这个问题,Hardt等人。提出了机会平等的概念(EO),当目标标签相对于输入特征的确定性符号时,它与最大精度兼容。然而,在概率的情况下,问题更复杂:已经表明,在差异隐私约束下,有些数据源只能在完全损害准确性下实现EO,从而有意义满足EO的分类器不能比琐碎(即常数)分类器更准确。在我们的论文中,我们通过删除隐私约束来加强这一结果。即,我们表明对于某些数据来源,满足EO的最准确的分类器是一个简单的分类器。此外,我们研究了准确性和EO损失(机会差异)之间的权衡,并在数据源提供了足够的条件,在其中EO和非琐碎的准确性兼容。
translated by 谷歌翻译
对抗性的鲁棒性已成为机器学习越来越兴趣的话题,因为观察到神经网络往往会变得脆弱。我们提出了对逆转防御的信息几何表述,并引入Fire,这是一种针对分类跨透明镜损失的新的Fisher-Rao正则化,这基于对应于自然和受扰动输入特征的软磁输出之间的测量距离。基于SoftMax分布类的信息几何特性,我们为二进制和多类案例提供了Fisher-Rao距离(FRD)的明确表征,并绘制了一些有趣的属性以及与标准正则化指标的连接。此外,对于一个简单的线性和高斯模型,我们表明,在精度 - 舒适性区域中的所有帕累托最佳点都可以通过火力达到,而其他最先进的方法则可以通过火灾。从经验上讲,我们评估了经过标准数据集拟议损失的各种分类器的性能,在清洁和健壮的表现方面同时提高了1 \%的改进,同时将培训时间降低了20 \%,而不是表现最好的方法。
translated by 谷歌翻译